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(57) Abstract 



The invention concerns a speech-processing system which 
comprises an optional number of speech-recognition modules (Ei, i 
= l..n) and speech-output modules (Aj, j « l„m). Depending on the 
application, the modules, which are each provided for a given type 
of speech recognition or speech output, are selected, activated and 
parametrized by a module-selection device (MA) as a function of an 
input signal (ES), such that the selected modules are used according to 
their respective configuration for speech-recognition or speech-output 
purposes. 

(57) Zusammenfassung 

Ein Sprachverarbeitungssystem weist eine beliebige Anzahl von 
Spracherkennungsmodulen (Ei, i - l..n) und Sprachausgabemod- 
ulen (Aj, j - l..m) auf. Die jeweils fur eine bestimmte Art der 
Spracherkennung bzw. Sprachausgabe vorgesehenen Module wer- 
den je nach Anwendungssituation abhangig von einem Eingabes- 
ignal (ES) von einem Mittel (MA) zur Auswahl der Module aus- 
gewahlt und aktiviert und parametrisiert, so daB die ausgewahlten 
Module entsprechend ihrer Ausgestaltung zur Spracherkennung bzw. 
Sprachausgabe verwendet werden. 




LEDIGUCH ZUR INFORMATION 
PCT JS£*fi*£ ^ emifi2ielUng Von PCT-Vemagsstaaten auf den Kopfbbgen der Schriften, die Internationale Anmeldungen gen,** dem 



AL Albanien 

AM Armenien 

AT Osterreich 

AU Australien 

AZ Aserbaidschan 

BA Bosnien-Herzegowina 

BB Barbados 

BE Belgien 

BF Burkina Faso 

BG Bulgarien 

BJ Benin 

BR Brasilien 

BY Belarus 

CA Kanada 

CF Zentralairikanische Republik 

CG Kongo 

CH Schweiz 

CI C6te d'lvoire 

CM Kamerun 

CN China 

CU Kuba 

CZ Tschechische Republik 

DE Deutschland 

DK Danemark 

EE Estland 



ES Spanien ls 
FI Finnland lt 

FR Frankreich LU 
GA Gabun jjy 
GB Vereinigtes KOnigreich MC 
GE Georgien MD 
GH Ghana MG 
GN Guinea \fK 

GR Griec hen land 

HU Ungarn ML 

IE Irland MN 

IL Israel MR 

IS Island MW 

IT Italien &IX 

JP Japan ne 

KE Kenia NL 

KG Kirgisistan NO 

KP Demokratische Volksrepublik NZ 

Korea PL 

KR Republik Korea PT 

KZ Kasachstan RO 

LC St. Lucia RU 

LI Liechtenstein ; SD 

LK Sri Lanka SE 

LR Liberia SG 



Lesotho 

Litauen 

Luxemburg 

Lettland 

Monaco 

Republik Moldau 
Madagaskar 

Die ehemalige jugoslawische 
Republik Mazedonien 
Mali 

Mongolei 

Mauretanien 

Malawi 

Mexiko 

Niger 

Niederlande 

Norwegen 

Neuseelsnd 

Polen 

Portugal 

Rum amen 

Russische Foderaiion 

Sudan 

Schweden 

Singapur 



SI 


Slowenien 


SK 


Slowakei 


SN 


Senegal 


sz 


Swasiland 


TD 


Tschad 


TG 


Togo 


TJ 


Tadschikistan 


TM 


Turkmenistan 


TR 


TOrkei 


TT 


Trinidad und Tobago 


UA 


Ukraine 


UG 


Uganda 


US 


Vereinigte Staaten von 




Amerika 


UZ 


Usbekistan 


VN 


Vietnam 


YU 


Jugoslawien 


ZW 


Zimbabwe 



[ 



WO 98/10413 




PCT/DE97/01920 



1 



Beschreibung 

5 

Sprachverarbeitungssystem und Verfahren zur Sprachverarbei- 
tung 

In iiblichen Sprachverarbeitungssyst emen beispielsweise fur 
10 telef onbasierte Anwendungen werden verschiedenste Moglichkei- 
ten der sprachlichen Eingabe und Ausgabe angeboten. Dies 
reicht von der Erkennung von einzeln gesprochenen Ziffern und 
einer meist begrenzten Anzahl von Kommandowortern bis zur 
Eingabemoglichkeit fliefiend gesprochener Aulierungen. Die Aus- 
15 gabemoglichkeiten reichen vom Ausgeben komplett auf genommener 
AuJierungen bis zu rein synthetisch erzeugter akustischer Aus- 
gabe von Texten aus beispielsweise abgespeicherten Phonemen . 

Anwendungen von Sprachverarbeitungssystemen im industriellen, 
20 of f entlichen sowie im privaten Bereich sind mit sehr unter- 
schiedlichen Anf orderungen sowohl an die Spracheingabe als 
auch an die Sprachausgabe konf ront iert . Dies ist bedingt 
durch die Vielfalt der Anwendungsmoglichkeiten und der damit 
von den Sprachverarbeitungssystemen zu losenden sprachlichen 
2 5 Aufgaben. 

Dies gilt ebenso fur Sprachdialogsysteme, bei denen das 
Sprachverarbeitungssystem mit dem Benutzer des Sprachverar- 
beitungssystems in einem beliebig ausgestalteten Dialog 
30 steht.- 

Bei einer Anwendung im Bereich von Sprachverarbeitungssyste- 
men kann es beispielsweise erforderlich sein, dafi zu einem 

* 

Zeitpunkt vom Benutzer eine Ziffer einzeln abgefragt wird, zu 
35 einem anderen Zeitpunkt innerhalb desselben Dialoges aber von 
dem Benutzer ein Datum eingegeben werden kann und vom Sprach- 
verarbeitungssystem verarbeitet werden soli. 
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Ebenso kann bei der Ausgabe an einer Stelle die Ausgabe einer 
Sprachkonserve ausreichend sein, wahrend an anderer Stelle 
eines Anwendungsszenarios durch die hohe Variabilitat des 
5 auszugebenden Textes eine Sprachsynthese geeigneter ist, 

Desweiteren konnen zu verschiedenen Zeitpunkten verschiedene 
Leistungsmerkiuale von Spracherkennern vom Betreiber als er- 
forderlich erachtet werden, wie z. B. die Unterbrechbarkeit 
10 der Systemausgabe wiinschenswert sein kann, wohingegen an an- 
derer Stelle jedoch der Benutzer die Ausgabe vollstandig an- 
horen sollte. 

Um eine moglichst effiziente Verwendung der spezialisierten, 
bekannten Algorithmen zur Spracherkennung und zur Sprachaus- 
gabe und auch Sprachdialogsysteme mit komplexeren Erken- 
nungseigenschaf ten und Ausgabeeigenschaf ten als beispielswei- 
se zur einfachen Zif f ernerkennung oder nur zur isolierten Er- 
kennung von einer kleinen Anzahl von Kommandowortern, war es 
bisher iiblich, die Systeme in einer Weise zu erstellen, daft 
durch die besondere Auswahl von technischen Methoden und spe- 
zifischen sof twaretechnischen Maftnahmen den spezifischen An- 
forderungen an die Spracherkennung bzw. an die Sprachausgabe 
Rechnung getragen wurde . 

Dies erfordert jedoch einen groften personellen Aufwand von 
Experten, die fur jede neue Anwendungssituation in der Kegel 
neu zu erbringen ist. Durch diese Vorgehensweise wird eine 
effiziente wirtschaf tliche Nutzung von Sprachverarbeitungssy- 
stemen erheblich behindert. 

Im Telef onbereich existieren Dialogsysteme, bei denen eine 
Auswahl beispielsweise uber sog, DTMF-Tone und einfache Nen- 
nung von Ziffern oder einiger, weniger vorgegebener Komando- 
35 worte erfolgt. 



20 



25 
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Jedoch ist der Aufwand fur eine neue Entwicklung eines 
Sprachverarbeitungssystems bzw. eines Sprachdialogsystems mit 
den bisherigen Verfahren und Systemen sehr aufwendig . 

5 Aus [3] ist ein Verfahren zur Verbesserung der Spracherken- 
nung unter Beriicksichtigung verschiedener digitaler Codierbe- 
dingungen bekannt . Dabei wird fur eine Mehrzahl von Spracher- 
kennungsmodulen, die alle den gleichen Spracherkennungsalgo- 
rithmus verwenden, jedoch moglichst optimal adaptiert an un- 
10 terschiedeliche Kanalcodierungsverf ahren fur empfangene Si- 

gnale das jeweils verwendete Kanalcodierungsverf ahren erkannt 
und das jeweilig entsprechende Spracherkennungsmodul ausge- 
wahlt . 

15 Aus [6] ist ein Verfahren und eine Anordnung zur Generierung 
einer Vielzahl elektrischer Signale bekannt . Bei dieser An- 
ordnung werden eine Vielzahl von Sprachausgabeeinheiten glei- 
chen Aufbaus miteinander kombiniert zu der Gesamtanordnung . 

20 Somit liegt der Erfindung das Problem zugrunde, ein Sprach- 
verarbeitungssystem sowie ein Verfahren zur Sprachverarbei-- 
tung anzugeben, mit dem eine optimale, kontextangepaJJte Nut- 
zung von Spracherkennungsmodulen und/oder Sprachausgabemodu- 
len unter Verminderung benotigter Rechenkapazitat erreicht 

25 wird. 

Das Problem wird durch das Sprachverarbeitungssystem gemaii 
Patentanspruch 1 sowie durch das Verfahren gemaii Patentan- 
spruch 8 gelost. 

30 

Das Sprachverarbeitungssystem weist mehrere Spracherkennungs- 
module und/oder Sprachausgabemodule auf, die jeweils fur eine 
vorgebbare Art einer Spracherkennung bzw. einer Sprachausgabe 
vorgesehen sind. Ferner weist das Sprachverarbeitungssystem 
35 ein Mittel zur Auswahl eines Spracherkennungsmoduls und/oder 
Sprachausgabemoduls auf. Durch das Mittel wird abhangig von 
einem Eingabesignal , welches dem Mittel zugefiihrt wird, das 
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jeweilige Spracherkennungsmodul bzw. Sprachausgabemodul aus- 
gewahlt, aktiviert und das entsprechende Sprachsignal bzw. 
die erf orderlichen Parameter werden dem jeweiligen Modul zu- 
gefuhrt. Die Spracherkennung bzw. die Sprachausgabe wird dann 
5 von dem jeweiligen Modul ausgefuhrt . 

Bei dem Verfahren wird ein Eingabesignal analysiert mit dem 
beschrieben wird, welche Art von Spracherkennung bzw. Sprach- 
ausgabe benotigt wird. Abhangig von dem Eingabesignal wird 

10 mindestens ein Spracherkennungsmodul und/oder mindestens ein 
Sprachausgabemodul fur die jeweils durch das Eingabesignal 
beschriebene Spracherkennung bzw. Sprachausgabe, aktiviert. 
Mit dem jeweils ausgewahlten bzw. aktiviert en Modul wird die 
jeweilige Art der Spracherkennung bzw. Sprachausgabe durchge- 

15 fuhrt. 

Sowohl das Sprachverarbeitungssystem als auch das Verfahren 
weisen eine Vielzahl erheblicher Vorteile gegenuber dem Stand 
der Technik auf. 

20 

Der Bedarf an Rechenkapazitat bzw. an Verarbeitungsressourcen 
fur die Spracherkennung bzw. zur Sprachausgabe wird erheblich 
reduziert, da abhangig von der jeweils benotigt en Anwendungs- 
situation das fur die Situation optimal angepalite Modul zur 
25 Spracherkennung bzw. zur Sprachausgabe verwendet wird. 

Auch bei der Erstellung von Sprachdialogsystem ist das 
Sprachverarbeitungssystem zur Entwicklungsunterstiit zung sehr 
vorteilhaft einsetzbar. Besondere Vorteile bietet dieses 
30 Sprachverarbeitungssystem in diesem Bereich, da eine schnelle 
und einfache Anpassung der vorhandenen technischen Spracher- 
kennungsverf ahren und Sprachausgabeverf ahren an die jeweili- 
gen spezifischen Erf ordernisse der Anwendungssituation mog- 
lich ist. 

35 

Weiterhin wird eine flexible, der spezifischen Dialogssitua- 
tion angepalite Nutzung von deren unt erschiedlichen Fahigkei- 



WO 98/10413 




PCTYDE97/01920 



ten und Leistungsmerkmalen erreicht . Auch ist eine flexible 
Anpassung der Spracherkennungsleistung und Sprachausgabelei- 
stung an die bei den Benutzern in der spezifischen Dialogsi- 
tuation verfilgbaren Ressourcen, beispielsweise der verfiigba- 
5 ren Rechnerkapazitat moglich. 

Somit stellt das Sprachverarbeitungssystem ein bedeutendes 
Mittel dar zur bedarf sgerechten Konf iguration und Anpassung 
von Spracheingabe und Sprachausgabe in verschiedensten Anwen- 
10 dungssituationen . 

Vorteilhafte Weit erbildungen der Erfindung ergeben sich aus 
den abhangigen Anspruchen. 

15 Es ist in einer Weiterbildung des Sprachverarbeitungssystems 
sehr vorteilhaft, bestimmte Algorithmen, also bestimmte Telle 
der Module gemeinsam zu verwenden, wodurch eine redundante 
Realisierung lediglich eigentlich nur einmal benotigter Algo- 
rithmen vermieden wird. 

20 

Auch ist eine vorteilhafte Weiterbildung darin zu sehen, daft 
mehrere Spracherkennungsmodule gemeinsame Resourcen verwen- 
den, beispielsweise gemeinsame Lexika fur die Spracherken- 
nung. Dies fuhrt zu einer erheblichen Einsparung von Ressour- 
25 cen, z. B. von Speicherbedarf . 

Weiterhin ist es vorteilhaft, eine Dialoglauf steuerung vorzu- 
sehen, mit der ein Dialog des Sprachverarbeitungssystems mit 
einem Benutzer realisiert werden kann. 

30 

Ein Ausfuhrungsbeispiel der Erfindung ist in den Figuren dar- 
gestellt und wird im weiteren naher erlautert. 

Es zeigen 

35 Fig. 1 das Sprachverarbeitungssystem mit einigen Weiter- 
bildungen; 

Fig. 2 ein Blockdiagramm, in dem die Dialogablauf- 
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6 



Fig. 4 



Fig. 3 



steuerung dargestellt ist ; 

ein Ablauf diagramm, in dem ein mogliches Verfahren, 
welches zur Dialogablauf steuerung durchgefiihrt 
wird, dargestellt ist ; 

ein Ablaufdiagramm, in dem das erf indungsgemaiJe 
Verf ahren dargestellt ist . 



10 



15 



20 



25 



30 



In Fig. 1 ist das Sprachverarbeitungs system dargestellt. Das 
Sprachverarbeitungssystem weist mindestens ein Spracherken- 
nungsmodul El, E2, Ei, . .., En auf. Mit einem Index i, einer 
beliebigen Zahl zwischen 1 und n, wird jeweils das Spracher- 
kennungsmodul Ei eindeutig gekennzeichnet . Mit n wird eine 
Anzahl von Spracherkennungsmodulen in dem Sprachverarbei- 
tungssystem bezeichnet. 

Ferner weist das Spracherkennungssystem zusatzlich oder al- 
ternativ mindestens ein Sprachausgabemodul Al, A2, A j , . .., 
Am auf. Mit einem zweiten Index j, einer beliebigen Zahl zwi- 
schen 1 und m, wird jedes Sprachausgabemodul Aj eindeutig ge- 
kennzeichnet. Mit m wird eine Anzahl von Sprachausgabemodulen 
in dem Sprachverarbeitungssystem bezeichnet. 

Ferner weist das Sprachverarbeitungssystem ein Mittel MA zur 
Auswahl der Spracherkennungsmodule Ei bzw. der Sprachausgabe- 
module Aj auf. Das Mittel MA zur Auswahl der Module ist mit 
den einzelnen Modulen Ei, Aj gekoppelt, so daii von dem Mittel 
MA zur Auswahl der Module Ei, Aj an die einzelnen Module Ei, 
Aj Signale gesendet werden konnen, beispielsweise zur Akti- 
vierung der einzelnen Module Ei, Aj oder auch zur Ubergabe 
von Parametern, die von den einzelnen Modulen zur Durchfuh- 
rung der Spracherkennung oder der Sprachausgabe benotigt wer- 
den . 

Spracherkennungsmodule Ei 



Grundlagen uber die Spracherkennung sind beispielsweise in 
den Dokumenten [ 1 ] und [ 2 ] beschrieben . 
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Die einzelnen Spracherkennungsmodule El, E2, . .., En sind Mo- 
dule, die jeweils auf eine bestimmte Art der Spracherkennung 
spezialisiert sind . 

5 

Die einzelnen Spracherkennungsmodule Ei konnen beispielsweise 
durch Hardware oder auch durch einzelne Sof twareprozeduren 
realisiert sein. 

10 Im folgenden wird eine keineswegs abschlieftend zu betrachten- 
de Ubersicht uber vorgesehene Spracherkennungsmodule Ei gege- 
ben, die im Rahmen des Sprachverarbeitungssystems verwendet 
werden konnen. 

15 - Einzelzif f ernerkenner 

1st ein Spracherkennungsmodul Ei als ein Einzelzif fererkenner 
ausgebildet, so ist es derart ausgestaltet , als Eingabe ein 
einzelnes, vom Benutzer B des Sprachverarbeitungssystems ein- 
gesprochenes Sprachsignal , welches eine einzige Ziffer repra- 

20 sentiert, aus einer Auswahl von Ziffern, zu verarbeiten . Da- 
bei unterscheiden sich die Einzelzif f ernerkenner ublicherwei- 
se in der Modellierung der akustischen Muster. Es sind Syste- 
me bekannt, in denen von verschiedenen Sprechern die akusti- 
schen Muster fur ein ganzes Wort gespeichert werden und mit- 

25 tels Vergleichsverf ahren wie dem sog. Dynamic Programming 

oder dem Dynamic Time Warping oder auch unter Verwendung neu- 
ronaler Netze beim Erkennungsvorgang das am besten passende 
Wort ermittelt wird. Andere bekannte Module zur Einzelzif fer- 
nerkennung basieren auf dem Prinzip der Hidden-Markov- 

30 Modelle. Bei diesen Prinzip der Einzelzif fernerkennung wird 
die Lautfolge der von mehreren Sprechern gesprochenen Worter 
als Zustandsf olge mit Variable und vorgegebener Lange abge- 
speichert. Bei der Erkennung der Worter, in diesem Fall der 
Ziffer, wird der geringste Abstand zu der abgespeicherten 

35 Wortfolge ermittelt. Bei Varianten dieses Prinzips werden in 
Hidden-Markov-Modellen die Folgen der einzelnen phonetischen 
Einheiten abgespeichert , die aus den Daten mehrerer Sprecher 
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gewonnen werden, in der Regel Ziffern. Zur Verminderung beno- 
tigter Rechenkapazitat kann bei einem Einzelzif fernerkenner 
ausgenutzt werden, daii auf keine der gespeicherten lautlichen 
Folgen eine weitere Folge auftreten kann. Aus diesem Grund 
5 ist in diesem Fall keine rechenaufwendige Detektion von Wor- 
grenzen erf orderlich . Auch ist der zu untersuchende Wort- 
schatz relativ gering, da lediglich die Ziffern untersucht 
werden mussen. 

10 - Zif f ernkettenerkenner 

Ist ein Spracherkennungsmodul Ei als Zif f ernkettenerkenner 
ausgestaltet , so ist das Spracherkennungsmodul in der Regel 
mit Erkennern fur kontinuierliche Sprache gleichzuset zen . Ei- 
ne Anzahl von in einem digitalen Lexikon definierten, vorgeb- 

15 baren Wortern, in diesem Spezialf all Ziffern, kann in belie- 
biger Reihenfolge hintereinander von einem Benutzer B des 
Sprachverarbeitungssystems geauftert werden. Fur diesen Fall 
ist eine Detektion der Grenzen zwischen den einzelnen Worten 
erf orderlich. Dies kann entweder durch ein Verfahren zur ex- 

20 pliziten Detektion der Wortgrenzen erfolgen, oder die Wort- 
grenzen werden von dem Algorithmus der Wortsuche f estgelegt . 
Bei der Wortsuche werden parallel alle Ziffern im Eingabesi- 
gnal untersucht und verschiedene Enden hypothetisiert . An je- 
dem Ende kann im Signal eine weitere Ziffer gesucht werden. 

25 Dazu wird ein Suchraum aufgebaut, der die verschiedenen Al- 
ternativen gleichzeitig verfolgt und sie nach vorgebbaren 
Qualitatskriterien ordnet . In diesem Zusammenhang kann bei- 
spielsweise das Prinzip der Dynamischen Programmierung ver- 
wendet werden, wie es in dem Dokument [1] beschrieben ist. 

30 Ein solches Kriterium kann der Abstand der beobachteten Teile 
des Signals zu den Ref erenzmustern, den einzelnen gespeicher- 
ten Ziffern sein. Zif f ernkettenerkenner zeichnen sich in der 
Regel von kontinuierlichen Erkennern in der besonderen Art 
der Modellierung der akustischen Ref erenzmuster aus, bei de- 

35 nen bei der Ziffer eine spezifische Artikulationsweise oder 
typische Langen der einzelnen Ziffern ausgenutzt werden. 
Durch eine Modellierung von Sprachpausen oder durch ein Ent- 
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scheidungskriterium, z. B. die im Signal sichbare Energie, 
kann in unterschiedlichen Heuristiken das Ende einer solchen 
Folge detektiert werden . 

5 - Erkennung von Wortern aus einem begrenzten Vokabular 

1st ein Spracherkennungsmodul Ei als ein Spracherkenner fur 
bestimmte haufige Kommandoworte aus einem begrenzten Vokabu- 
lar, dem sog. Kernvokabular ausgestaltet , so werden algorith- 
misch die entsprechenden Verfahren angewendet wie auch zur 

10 Einzelzif f ernerkennung, jedoch mit dem Unterschied, daft das 
Vokabular urn die entsprechenden Worte erweitert ist bzw. daft 
sich das Vokabular, mit den entsprechenden gespeicherten Re- 
prasentanten der einzelnen Worte von den Ziffern unterschei- 
det . Das speziell erweiterte bzw. ersetzte Vokabular ist fur 

15 den Spracherkenner vorgegeben und in der Regel mit einer grb- 
fteren Anzahl von Sprechern trainiert . 

- Erkennung eines Einzelwortes aus einem unbegrenzten Vokabu- 
lar 

20 Zur Erkennung flieftend gesprochener Sprache mit einem unbe- 
grenzten Vokabular ist ein Spracherkennungsmodul Ei derart * 
ausgestaltet, daft die Worte des Vokabulars dem Spracherken- 
nungsalgorithmus, der in dem Spracherkennungsmodul Ei reali- 
siert wird, nicht bekannt sind, sondern von einem Benutzer B 

25 zuvor bestimmt werden. Der Algorithmus zur Spracherkennung 

basiert iiblicherweise auf der Erkennung einer Folge von laut- 
lichen Einheiten, den sog. Phonemen oder anderen Wortunter- 
einheiten, aus denen sich die Worte des zu erkennenden Voka- 
bulars zusammenset zen lassen. In dem Lexikon des Spracherken- 

30 nungsmoduls Ei werden in einem Speicher die das jeweilige 
Wort kennzeichnenden lautlichen Folgen abgespeichert . Die 
Laute konnen in ihrer Modellierung auch noch weitere Unter- 
einheiten, wie z. B. Beginn des Phonems, Mitte des Phonems, 
Ende des Phonems, Ubergang des Phonems, etc. aufweisen. Das 

35 Spracherkennungsverf ahren sucht aus dem beobachteten Sprach- 
signal wiederum die Folge mit dem geringsten Abstand zu den 
Ref erenzdaten auf- Der Einzelworterkenner kann algorithmisch 
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den Umstand ausnutzen, daft auf keine der im Inventar abgeleg- 
ten lautlichen Folgen eine weitere Folge auftreten kann. 

- Erkennung flieliend gesprochener Sprache mit einem unbe- 
5 grenzten Vokabular 

1st ein Spracherkennungsmodul Ei zur Erkennung flieliend ge- 
sprochener Aufterungen des Benutzers mit einem unbegrenzten 
Vokabular ausgestaltet , so unterscheidet sich das Spracher- 
kennungsmodul Ei von einem Spracherkennungsmodul Ei zur Zif- 

10 f ernkettenerkennung in der Regel in der Art der Modellierung 
der lautlichen Einheiten. 1st das lexikalische Inventar, also 
das Vokabular, unbegrenzt, was auch als ein offenes lexikali- 
sches Inventar bezeichnet wird, erfolgt die akustische Model- 
lierung meist auf lautlichen Einheiten, den Phonemen, oder 

15 auf Wortuntereinheiten, aus denen sich das zu erkennende Vo- 
kabular zusammensetzen laftt. Ebenso wie bei dem Spracherken- 
nermodul Ei fur kontinuierliche Ziffern werden bei dieser 
Ausgestaltung des Spracherkennungsmoduls die Grenzen zwischen 
den Wortern durch eine geeignete Suche bestiirunt. Dies erfolgt 

20 beispielsweise durch eine Modellierung von Sprachpausen oder 
durch ein Entscheidungskrit erium, z. B. die im Signal sicht- 
bar'e Energie. Das Spracherkennungsmodul kann die wahrschein- 
lichste, oder mit Erweiterungen im Suchalgorithmus eine vor- 
gebbare Anzahl wahrscheinlichster Folgen von Wortern ausge- 

25 ben. Die Suche bei kontinuierlichen Spracherkennungsmodulen 
wird meistens durch eine Modellierung der fur einen bestimm- 
ten Sprachausschnitt typischen oder moglichen Wortfolgen, den 
sog. Language-Modellen unterstutzt . Unter Language-Modellen 
sind beispielsweise grammatische Modellierungen der Wortfol- 

30 gen oder Wortlisten oder statistische Modellierungen im Sinne 
einer sog. N-Gram-Analyse zu verstehen. 

- Erkennung von vorgegebenen Wortkombinationen 

Zur Erkennung von vorgegebenen Wortkombinationen ist ein 
35 Spracherkennungsmodul Ei derart ausgestaltet, daft beispiels- 
weise Datumsangaben, Uhrzeitangaben, Maftangaben, Zahlenanga- 
ben, etc. als spezielles Vokabular verwendet werden. Bei die- 
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sen Spracherkennungsmodulen Ei handelt es sich ublicherweise 
urn Spracherkennungsmodule Ei fur kontinuierliche Sprache, de- 
ren lexikalisches Inventar aber auf die vorgegebenen Wortkom- 
binationen aus den jeweiligen Bereichen, wie beispielsweise 
eine Datumsangabe oder eine MaJiangabe zugeschnitten ist. Des 
weiteren kann die Wortf olgensuche durch eine Modellierung der 
moglichen Wortfolgen wie bei einem kontinuierlichen Spracher- 
kennungsmodul Ei unterstutzt werden, wobei sich diese Model- 
lierung dadurch auszeichnet, daft sie im wesentlichen die zu 
erwartenden Ausdrucksweisen in einem dieser sprachlichen Un- 
tergebiete, z. B. Datumsangabe, besonders berucksichtigt . 

- Schlusselworterkennung 

Bei einem Spracherkennungsmodul Ei zur Schlusselworterkennung 
konnen in einem Spracheingabesignal ein oder mehrere vorgege- 
bene Worte, die in einem Lexikon zuvor gespeichert wurden, 
detektiert werden. Die verschiedenen Mbglichkeiten zur Ausge- 
staltung der Spracherkennungsmodule zur Schlusselworterken- 
nung sind beispielsweise in dem Dokument [4] beschrieben. 

- Erkennung von Schlusselwortkombinationen 

Zur Erkennung von Schlusselwortkombinationen wird das gleiche 
Prinzip wie zur Erkennung von Schlusselwort en verwendet, mit 
dem Unterschied, daii vordef inierte Wortketten in einem belie- 
bigen Eingabesignal ES detektiert werden konnen. Die Wortket- 
ten konnen entweder explizit als Ref erenzdaten abgespeichert 
werden oder durch andere Verfahren, beispielsweise Language- 
Modelle oder Grammatiken beschrieben werden. 

- Alphabeterkennung 

Ist ein Spracherkennungsmodul Ei als eine Alphabeterkennungs- 
einrichtung ausgestaltet , so werden ublicherweise die Buch- 
staben mit besonderen akustisch phonetischen Modellen be- 
schrieben. Als lexikalische Einheiten, die in einem Speicher 
des Sprachverarbeitungssystems vorgesehen sind, werden in 
diesem Fall im wesentlichen die Buchstaben des Alphabets ver- 
wendet . Ein Alphabeterkenner kann beispielsweise als Einzel- 
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worterkenner das isolierte Alphabet oder auch als kontinuier- 
licher Erkenner fur eine fliefiende Buchstabierung realisiert 
sein. Bei kontinuierlichen Alphabeterkennern kann durch Lan- 
guage-Modelle oder auch durch Grammatiken die Suche der tat- 
5 sachlichen Wortfolgen unterstutzt werden . 

- Lautf olgeerkennung 

Ein Spracherkennungsmodul Ei zur Lautf olgenerkennung zeichnet 
sich dadurch aus, dafi die akustischen Einheiten auf phoneti- 

10 sche Einheiten modelliert werden und die zu erkennenden Laut- 
folgen nicht durch ein Lexikon beschrankt sind, Lautf olgener- 
kenner bzw. Phonemerkenner beruhen auf akust isch-phonetischen 
Modellierungen der Laute einer Sprache . Mit dem phonetischen 
Inventar wird die Suche in dem akustischem Sprachsignal 

15 durchgefuhrt . Hypothetisiert wird eine beliebige Kette von 

Lauten. In der akustischen Analyse werden verschiedene Heuri- 
stiken verwendet, um ein zu schnelles Wechseln der hypotheti- 
sierten Laute, den Phonemen, in einer Aufterung zu verhindern. 
Zusatzlich konnen als Einschrankungen der zu erkennenden 

20 Lautfolgen im Sinne von Language-Modellen phonetische Gesetz- 
maiiigkeiten einer Sprache berucksichtigt werden. 

- DTMF-Erkennung 

Eine DTMF-Erkennung ist aus verschiedensten Bereichen der te- 
25 lef onischen Spracherkennung bekannt . 

Als Sprachausgabemodule Aj konnen verschiedene bekannte Prin- 
zipien zur Realisierung verschiedener Sprachausgabeprinzipien 
verwendet werden: 

30 

- Ausgabe vorgegebener, gespeicherter Sprachkonserven 

Ist ein Sprachausgabemodul Aj zur Ausgabe vorgegebener, ge- 
speicherter Sprachkonserven ausgestaltet , so werden Sprachau- 
iierungen, die vorher von einer beliebigen Person eingespro- 
35 chen, auf genommen und digitalisiert abgespeichert wurden, 

iiber einen beliebigen akustischen Kanal ausgegeben. Die auf- 
genommenen Aufterungen konnen hierbei die kompletten auszuge- 
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benden Aufterungen sein, die jeweils fur eine bestimmte Situa- 
tion vorgesehen sind, oder aber auch Bruckstucke davon, die 
zur Laufzeit wieder zu kompletten Aufterungen zusammengesetzt 
werden. Ein typisches Beispiel hierfur ist die Bildung von 
5 Zif f ernketten, deren Lange und Zusammenset zung in den meisten 
Anwendungs fallen nicht vorhersehbar ist. Es konnen jedoch je 
nach Kontext verschiedene intonatorische Varianten ein und 
derselben Aufterung vorliegen und in einem Sof twareprogramm 
entsprechend dem aktuellen Kontext ausgewahlt werden. Ferner 
10 sind verschiedene Methoden anwendbar, die eine sog. akusti- 

sche Glattung der verwendeten Konserven an den Ubergangen der 
Konkatenation der einzelnen Sprachkonserven in verschieden- 
ster Form vornehmen konnen. 

15 - Ausgabe von aus gespeicherten Phonemen synthetisierten Wor- 
ten 

Mogliche Realisierungen zur Ausgest altung von Sprachausgabe- 
modulen zur Synthese von gespeicherten Phonemen zu syntheti- 
sierten Worten sind in dem Dokument [5] beschrieben. 

20 

Das Mittel MA zur Auswahl der in einem Anwendungsszenario .je- 
weils zu verwendenden Spracherkennungsmodule Ei bzw. Sprach- 
ausgabemodule Aj ist derart ausgest altet, daft abhangig von 
einem dem Mittel MA zugefiihrten Eingabesignal ES mindestens 

25 eines der Spracherkennungsmodule bzw. der Sprachausgabemodule 
aktiviert wird und, soweit es erforderlich ist, den einzelnen 
Spracherkennungmodulen Ei bzw. Sprachausgabemodulen Aj Para- 
meter, die im weiteren Verfahren zur Spracherkennung bzw. zur 
Sprachausgabe erforderlich sind, zugefuhrt werden. Die ent- 

30 sprechenden Paramter konnen beispielsweise darin zu sehen 

sein, daft den Spracherkennungsmodulen Ei bzw. den Sprachaus- 
gabemodulen Aj Ressourcen zugewiesen werden oder auch bei- 
spielsweise die Speicheradressen der verwendeten digitalen 
Lexika zugefuhrt werden. 

35 

In diesem Ausf uhrungsbeispiel werden die Ergebnisse, also die 
ausgegebenen Sprachsignale aus den Sprachausgabemodulen Aj 
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dem Mittel MA zugefiihrt, und beispielsweise iiber einen Aus- 
gang AS des Sprachverarbeitungssystems dem Benutzer B ausge- 
geben. Ein von einem Benutzer B gesprochenes Sprachsignal 
wird iiber einen Eingang E, beispielsweise realisiert durch 
5 einen Mikrophon, dem Mittel MA zugefiihrt, und iiber das Mittel 
MA abhangig von den jeweils aktivierten Spracherkennungsmodu- 
len Ei, den jeweils aktivierten Spracherkennungsmodul Ei zu- 
gef iihrt . 

10 Die einzelnen Module Ei, Aj verwenden u. a. Wissensquellen, 
beispielsweise digitale Lexika, allgemeine Daten, die in ei- 
nem Speicher des Sprachverarbeitungssystems gespeichert sind. 
Unter den Wissensquellen sind beispielsweise auch auf die je- 
weilige Spracherkennungsauf gabe spezialisierte akustischer 

15 Modelle, z. B. ein Einzelworterkenner mit Lautmodellen oder 
Einzelworterkenner mit akustischen Modellen fur beliebige 
Worter, zu verstehen. Die Wissensquellen konnen aber auch die 
von den Erkennern fur einen gegebenen Dialogschritt in einem 
Dialogsystem zur Auswahl stehenden spezifischen Wortschatze 

20 sein, oder fur bestimmte, erwartete eingabespezif ische sog. 
Sprachmodelle * 

Das von den Spracherkennungsmodulen Ei verwendete Vokabular 
ist beliebig durch orthographische, d. h. sprecherunabhangi- 
25 ge, oder sprachliche, d. h. sprecherabhangige, Eingabe sowohl 
bei der Erstellung als auch aktuell zur Laufzeit des Sprach- 
verarbeitungssystems erweiterbar und damit an wechselnde An- 
f orderungen anpaftbar . 

30 Durch geeignete Lernverf ahren konnen die Wissensquellen wah- 
rend des Betriebs des Sprachverarbeitungssystems durch eine 
Auswertung der laufenden Eingabedaten modifiziert und der be- 
sonderen Nutzungs- und Anwendungssituation angepaiit werden. 

35 Weiterhin kann ein Parameter, der den Spracherkennungsmodulen 
Ei oder den Sprachausgabemodulen Aj zugefiihrt wird darin zu 
sehen sein, daft mit dem Parameter angegeben wird, ob selbst 
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wahrend einer Sprachausgabe von dem Benutzer B gesprochene 
Sprachsignale bearbeitet und von dem Sprachverarbeitungssy- 
stem aufgenommen werden konnen. 

5 Im folgenden wird anhand eines sehr einfachen Beispiels fur 
eine Dialogsituation eine Ausgestaltung des Sprachverarbei- 
tungssystems als Sprachdialogsystem dargestellt. 



In der folgenden Darstellung in einem Pseudo- 
10 Nachrichtenf lulldiagramm wird jeweils zu Beginn einer Zeile 

auf der linken Seite eines Pfeils der Sender eines bestimmten 
Signals und auf der rechten Seite eines Pfeils der Empfanger 
des Signals, das im weiteren in dieser Zeile angegeben ist, 
beschrieben . 

15 

In diesem Beispiel wird ohne Einschrankung der Allgemeinheit 
von einer Weiterbildung, welche im weiteren beschrieben wird, 
ausgegangen, namlich einer Dialogablauf steuerung DA. 



20 DA MA: GebeAus ( "Bitt e nennen Sie Ihre Nummer nach dem 
Piepton" ) 

MA — » Al : PlayPromptFile (Bitte_nennen_Sie_Ihre_Nummer_nach_ 

dem_Piepton) 
Al -* MA: PlayPromptFinished 
25 MA DA: AusgabeComplete 

DA -> MA: ErkenneAuiberung (Domane=Zif fern, Anzahl max. =5) 
MA El : StarteErkennung (Modus=Einzelzif f er, 

Lexikon=Digits ) 
30 MA — » E2 : StarteErkennung (Modus=kontinuierliche 

Zif f ernerkennung, Lexikon= Digits) 
El -> MA: ErkenneAusgabe (Modus=Einzelzif fer, Resultat=0) 
E2 -» MA: ErkenneAusgabe (Modus=kontinuierliche Zif fern, 

erkannte Zif f ernf olge : 12 3 4 5) 

35 



MA -> DA: EingabeZiff ernf olge : (12 3 4 5) 
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DA — * MA: GebeAus ("Ihre Nummer ist 12 3 4 5") 

DA — > Al : Play Prompt File ( Ihre_Nummer_ist ) 

MA — > A2 : Synthesise (Zif fernfolge 12 3 4 5) 

Al — > MA: PlayPromptFinished 

5 A2 -» MA: Synthesise Finished 

MA -> DA: AusgabeComplete 



DA — > MA: GebeAus ( "Mochten Sie Vertrieb Oder Kundenservice 
sprechen?" ) 

10 MA — > Al : PlayPromptFile (M6chten_Sie_Vertrieb_oder__ Kun- 
denservice- sprechen) 

Al — ► MA: Prompt' file not available 

MA — > A2 : Synthesise (Mochten Sie Vertrieb oder Kundenservice 
sprechen? ) 
15 A2 — > MA: Synthesis finished 
MA -» DA: Ausgabe complete 

DA — > DM: ErkenneSprache (Domane=Vertrieb_oder_Kundenservice) 
MA — > E3 : StarteErkennung (Modus=kontinuierlich, Lexi- 
20 kon=Kernvokabular ) 

DM -» E4 : StarteErkennung (Modus=Schlusselworterkennung, Lexi- 
kon=Vertrieb und Kundenservice) 

E3 MA: ErkennerAusgabe (Modus=kontinuierlich, Resultat="den 
Vertrieb bitte") 

25 E4 -» MA: ErkennerAusgabe (Modus^Schlusselworterkennung, Re- 
sultat="Vertrieb" ) 

MA DA: Eingabezeichenf olge (Vertrieb) 



DA MA: GebeAus ( "Ihr Geburtsdatum bitte") 
30 MA -> Al : PlayPromptFile ( Ihr_Geburt sdatum_bitte ) 

DA -» MA: ErkenneAuJierung (Domane=Datum) 
DM —> E5 : StarteErkennung (Modus=kontinuierlich, Lexi- 
kon=Datumsangabe ) 
35 E5 -» MA: ErkenneAusgabe (Modus=kontinuierlich / Resultat l="am 
ersten ersten neunzehnhundert f unf zig" , Resultat 2="am ersten 
elf ten neunzehnhundert funf zig" ) 
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MA — > DA: Eingabezeichenf olge (am ersten ersten neunzehnhun- 
dertfunf zig) 

DA -> MA: GebeAus ( "Sie sind am ersten ersten neunzehnhundert- 
f unf zig geboren" ) 
5 MA — » A3 : ConcatAusgabe ( Sie_sind_am ersten, ersten, neunzehn- 
hundertfunf zig, geboren) 
A3 — > MA: PlayPromptConcatComplete 
MA -> DA: AusgabeComplete 

DA -» MA: ErkenneSprache (Domane=j /n-Frage) 
10 MA — > E6: St art eErkennung (Modus=Einzelwort , Lexikon=(ja, 
nein) ) 

In diesem einfachen Beispiel weisen die Spracherkennungsmodu- 
le Ei die folgenden einfachen Spracherkennungscharakteristika 
15 auf: 

Das Spracherkennungsmodul El ist als Einzelzif f ernerkenner 
ausgestaltet , E2 als Spracherkennungsmodul zur Erkennung kon- 
tinuierlicher Ziffern, also von Zif f ernketten . Das Spracher- 
kennungsmodul E3 ist als Spracherkennungsmodul zur Erkennung 

20 flieftend gesprochener Sprache mit einem begrenzten Vokabular, 
dem Lexikon „Kernvokabular" , ausgestaltet. Das Spracherken- 
nungsmodul E4 ist als Schliisselworterkenner mit dem Lexikon 
"Vertrieb und Kundenservice" ausgestaltet, das Spracherken- 
nungsmodul E5 ist als ein Spracherkennungsmodul zur Erkennung 

25 von vorgegebenen Wortkombinationen, in diesem Spezialfall zur 
Erkennung von einer Datumsangabe ausgestaltet. 

Die verwendeten Sprachausgabemodule Aj sind in diesem einfa- 
chen Beispiel als Modul zur Ausgabe vorgegebener, gespeicher- 
30 ter Sprachkonserven (Al), ein Modul zur Synthetisierung von 
Sprache aus beispielsweise Phonemen (A2) sowie ein Modul zur 
Ausgabe zusammengeset zter einzelner vorgegebener, gespeicher- 
ter Sprachkonserven (A3) ausgestaltet. 

35 Wie aus diesem einfachen Beispiel ersichtlich wird, wird je- 
weils dem Mittel MA von den Spracherkennungsmodulen Ei die 
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Ergebnisse der Spracherkennung bzw. von den Sprachausgabemo- 
dulen Aj das auszugebende Sprachsignal zugefiihrt . 

Andererseits wird von dem Mittel MA den einzelnen Modulen Ei, 
5 Aj die jeweilige zur Erkennung benotigte Information zuge- 
fiihrt, beispielsweise auch das in das Sprachverarbeitungssy- 
stem eingesprochene Sprachsignal. 

Eine weitere Weiterbildung des Sprachverarbeitungssystem und 
10 des Verfahrens zur Sprachverarbeitung ist darin zu sehen, daiJ 
das Sprachsignal auch von mehreren Spracherkennungsmodulen Ei 
oder Sprachausgabemodulen Aj gleichzeitig bearbeitet wird, 
und daft jeweils das beziiglich eines beliebigen Ahnlichkeits- 
maiies beste Ergebnis verwendet wird oder auch nur ein Ver- 
15 gleichsergebnis zur Erhohung der Erkennungssicherheit verwen- 
det wird. 

Dial ogabl au f s teuerung 

20 Mit der Dialogablauf steuerung DA wird ein vorgebbarer Dialog 
mit dem Benutzer B des Sprachverarbeitungssystems je nach der 
Anwendungssituation durchgefuhrt , und abhangig von der jewei- 
ligen Dialogssituation dem Mittel MA Steuerungsinf ormation, 
beispielsweise noch benotigte Information zugefiihrt. Weiter- 

25 hin wird in dieser Weiterbildung beispielsweise das Ergebnis 
der Spracherkennungsmodule in dem Mittel zur Dialogablauf- 
steuerung ausgewertet, was beispielsweise auf die folgende 
Weise erfolgen kann: 

30 Die Dialogablauf steuerung DA weist mindestens folgende Kompo- 
nenten auf, die miteinander gekoppelt sind, beispielsweise 
uber einen Bus BU (vgl. Figur 2): 
ein Eingabemittel EM, 
einen Eingabespeicher ESP, 
35 - eine Aktionsermittlungseinheit AE, 
einen Parameterparser PP . 
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Die Arbeitsweise der einzelnen Komponenten der Dialogablauf - 
steuerung DA werden im Zusammenhang mit den Verfahren zur Ab- 
lauf steuerung eines Dialogs mit dem Benutzer B im weiteren 
detalliert erlautert . 

5 

Die Aktionsermittlungseinheit AE dient zum einen zur Ermitt- 
lung von Aktionshinweisen und zum anderen zur Ermittlung min- 
destens einer vorgebbaren Aktion, auf die durch den Aktions- 
hinweis hingewiesen wird. Die Aktion wird aus einer beliebi- 

10 gen Anzahl vorgebbarer Aktionen ermittelt . Verschiedene Ver- 
f ahrensweisen zur Ermittlung der gesuchten Aktion, auf die 
durch den Aktionshinweis hingewiesen wird, sind dem Fachmann 
bekannt . Einige beispielhaft dargelegte Moglichkeiten zu de- 
ren Realisierung werden jedoch im Zusammenhang mit dem Ver- 

15 fahren detailliert erlautert. 



Der Parameterparser FP dient zur Ermittlung von Aktionspara- 
metern, die jeder Aktion jeweils eindeutig zugeordnet sind, 
aus der in dem Eingabespeicher ESP gespeicherten digitalen 
20 Aktionsinf ormation . 

In Figur 2 ist die Dialogablauf steuerung DA mit einigen Wei- 
terbildungen der Dialogablauf steuerung DA zur Aktionsermitt- 
lung dargestellt. 

25 

Eine in einer Ausgestaltung vorgesehene Inf ormationsdatenbank 
ID enthalt jeweils anwendungspezif isch gesuchte Information, 
die anhand der bestimmten Aktion und den anschlieJJend fur die 
Aktion ermittelt en Aktionsparameter ermittelt wird. 

30 

Es ist in einer Weiterbildung eine Aktionsklarungseinheit AKE 
vorgesehen zur Ermittlung weiterer Aktionshinweise von dem 
Benutzer. Die Aktionsklarungseinheit AKE gewinnt vor allem in 
Anwendungsgebieten eine erhohte Bedeutung, wenn es gilt, un- 
35 ter verschiedenen Aktionen die gesuchte Aktion zu ermitteln. 
Sind die Aktionshinweise, die von dem Benutzer B der Dialo- 
gablauf steuerung DA iibergeben werden, zur Bestimmung der Ak- 
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tion nicht ausreichend, so wird die Aktionsklarungseinheit 
AKE zur Ermittlung weiterer Aktionshinweise von dem Benutzer 
B verwendet . Die Ausgestaltung der Aktionsklarungseinheit AKE 
wird im Zusammenhang mit dem Verfahren naher erlautert. Es 
5 ist jedoch nicht notwendig, daii die Aktionsklarungseinheit 
AKE genau eine Aktion ermittelt • Es ist ebenso vorgesehen, 
die Anzahl vorgegebener Aktionen in einer beliebigen Art zu 
reduzieren, urn somit nur noch eine geringere Anzahl von Ak- 
tionen weiter zu verarbeiten. 

10 

In einer Weiterbildung ist eine Parameterklarungseinheit PKE 
vorgesehen zur Ermittlung weiterer Aktionsparameter von dem 
Benutzer B. Die Parameterklarungseinheit PKE wird verwendet, 
wenn fur die mindestens eine ermittelte Aktion nicht alle Ak- 
15 tionsparameter, die den jeweiligen Aktionen zugeordnet sind, 
bestimmt werden konnen. Fur diesen Fall ist es vorteilhaft, 
daii die Parameterklaruungseinheit PKE verwendet wird, urn feh- 
lende Aktionsparameter von dem Benutzer B zu ermitteln. 

20 In einer Weiterbildung der Dialogablauf steuerung DA ist es 

ferner vorteilhaft, einen ersten Aktionsspeicher AS1 und/oder 
einen zweiten Aktionsspeicher AS 2 vorzusehen. In dem ersten 
Aktionsspeicher AS1 werden Aktionen und deren Aktionsparame- 
ter gespeichert, bei denen der mindestens eine Aktionshinweis 

25 vollstandig mit mindestens einem Teil von Schlusselbegrif f en, 
deren Bedeutung im weiteren beschrieben wird, ubereinstimmt . 
In dem zweiten Aktionsspeicher AS 2 werden Aktionen und deren 
Aktionsparameter gespeichert, bei denen mindestens einer der 
Aktionshinweise mit mindestens einem Schlusselbegrif f uber- 

30 einstimmt. 

Ferner ist in einer Weiterbildung ein Mittel GF zur Generie- 
rung von Fragen (prompts) an den Benutzer B zur Ermittlung 
weiterer Aktionshinweise und/oder weiterer Aktionsparameter 
35 vorgesehen. Der Aufbau des Mittels GF zur Generierung von 
Fragen ist beispielsweise aus dem Dokument [3] bekannt. 
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Ferner ist es in einer Weiterbildung der Dialogablauf steue- 
rung DA vorgesehen, eine Steuerungseinheit STE zur Steuerung 
einer Hintergrundanwendung HA unter Verwendung der ermittel- 
ten Information zu verwenden. Der Aufbau der Steuerungsein- 
5 heit STE ist vollig anwendungspezif isch und dient lediglich 
dazu, die ermittelte Aktion zur Steuerung der Hintergrundan- 
wendung HA zu verwenden. Die unterschiedlichen Verwendungs- 
moglichkeiten und somit auch die unterschiedlichen Ausgestal- 
tungen der Steuerungseinheit STE werden im weiteren detail- 
10 liert beschrieben. 



Ferner ist in einer Weiterbildung ein Schltisselbegrif f editor 
SE vorgesehen, mit dem zum einen die im weiteren beschriebe- 
nen Schltisselbegrif fe und zum anderen neue Aktionen und/oder 
15 Aktionsparameter verandert, entfernt oder hinzugefugt werden 
konnen. 

Die einzelnen Verf ahrensschritte des Verfahrens sind in Figur 
3 dargestellt . 

20 

In einem ersten Schritt 301 wird von dem Benutzer B der Dia- 
logablauf steuerung DA Aktionsinformation, die mindestens ei- 
nen Aktionshinweis aufweist, ubergeben. Das Verfahren mufl 
nicht notwendigerweise mit der im vorigen beschriebenen An- 
25 wendung durchgefuhrt werden, es ist ebenso moglich, das Ver- 
fahren mit Hilfe eines Rechners durchzufuhren . 



Die Aktionsinf ormation wird von dem Benutzer B an die Dialo- 
gablauf steuerung DA oder das Sprachverarbeitungssystem uber- 

30 geben. Die Aktionsinf ormation wird digitalisiert und als di- 
gitalisierte Aktionsinf ormation gespeichert 302. Die digitale 
Aktionsinf ormation kann beispielsweise in einer Phonemdar- 
stellung oder auch in Form eines iiblichen Codes zur Darstel- 
lung von Schrif t zeichen (beispielsweise ASCII-Code) gespei- 

35 chert werden. 



WO 98/10413 



PCT/DE97/01920 



22 

In einem weiteren Schritt 303 wird aus der gespeicherten Ak- 
tionsinf ormation unter Verwendung des Parameterparses PP, 
dessen Aufbau beispielsweise aus dem Dolcument [4] bekannt 
ist, mindestens ein Aktionshinweises ermittelt. 

5 

Unter Verwendung des Aktionshinweises und der Aktionsermitt- 
lungseinheit AE wird mindestens eine Aktion bestimmt 304 . 

Die Bestimmung der mindestens einen Aktion kann auf unter- 
10 schiedliche Weise erfolgen. Eine sehr einfach jedoch in kein- 
ster Weise ausschlieftlich verwendbare Methode liegt darin, 
jeder Aktion eine vorgebbare Anzahl von Schlusselbegrif fen, 
die jeweils die Aktion charakterisieren, zuzuordnen, und die 
aus der Aktionsinf ormation ermittelten Aktionshinweise, die 
15 durch den Parameterparser PP ermittelt werden, mit den 

Schlusselbegrif fen zu vergleichen. Der Vergleich kann durch 
einen direkten Wortvergleich oder auch durch einen beliebigen 
Mustervergleich, deren Algorithmen jedem Fachmann gelaufig 
sind, erfolgen . 

20 

Ist die mindestens eine Aktion ermittelt worden 304, werden 
fur alle Aktionen die Aktionsparameter , die den Aktionen ein- 
deutig zugeordnet sind, aus der digitalen Aktionsinf ormations 
mittels des Parameterparser PP ermittelt 305. Anhand der er- 
25 mittelten Aktion sowie der zugehorigen Aktionsparameter wird 
nun in einem letzten Schritt 306 die Aktion durchgefiihrt . 

In einer Weiterbildung des Verfahrens wird Information zu der 
Aktion aus der Inf ormationsdatenbank ID ermittelt und dem Be- 
30 nutzer B iiber die Ausgabeeinheit AUS dargestellt. 

Reichen die in der digitalen Aktionsinf ormation enthaltenen 
Aktionshinweise nicht fur die Ermittlung mindestens einer Ak- 
tion aus 401, so ist es in einer Weiterbildung vorgesehen, 
35 weitere Aktionshinweise beispielsweise durch einen Dialog mit 
dem Benutzer B zu ermitteln 402. 
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Dies geschieht z. B. unter Verwendung der Aktionsklarungsein- 
heiten AKE, die vorzugsweise derart ausgestaltet ist, daJi fur 
die vorgegebenen Aktionen jeweils mindestens ein Ermittlungs- 
prompt eindeutig zugeordnet ist. Unter dem Ermittlungsprompt 
5 sind beispielsweise Fragen zu verstehen, die der jeweiligen 
Aktion zugeordnet und fest gespeichert sind. Diese Ermitt- 
lungsprompt s werden dem Benutzer B bei unzureichender Infor- 
mation zur Ermittlung der Aktionen dargestellt. Der Benutzer 
B gibt auf diese Ermittlungsprompts, also die entsprechenden 
10 Fragen, Antworten, die dann wiederum verarbeitet werden, wo- 
durch weitere Aktionshinweise ermittelt werden. Der Dialog 
wird solange durchgefuhrt und wiederholt, bis die ermittelten 
Aktionshinweise und weiteren Aktionshinweise ausreichend sind 
zur Identif ikation der vorgebbaren Anzahl von Aktionen. 



Ist die mindestens eine Aktion ermittelt, werden fur jede Ak- 
tion die Aktionsparameter, die der jeweiligen Aktion zugeord- 
net sind, ermittelt 305. 

20 Sind jedoch nicht alle benotigten Akt ionsparamet er vollstan- 
dig aus der in dem Eingabespeicher ESP ermittelten digitalen 
Aktionsinf ormation bekannt bzw. ermittelt worden, was in ei- 
nem zusatzlichen Verf ahrensschritt 4 03 gepriift wird, werden 
die restlichen Aktionsparameter beispielsweise von der Para- 

25 meterklarungseinheit PKE ermittelt 4 04. 

Dies geschieht beispielsweise ebenfalls in einem Dialog mit 
dem Benutzer B. Fur diesen Dialog konnen wiederum den einzel- 
nen Parametern zugeordnete Prompts, im folgenden als Parame- 
30 ter-Prompts bezeichnet, verwendet werden, die bei notwendiger 
Ermittlung der entsprechenden Aktionsparameter an den Benut- 
zer B ausgegeben werden und der Benutzer B antwortet auf die 
entsprechenden Fragen. 



15 



35 



Sowohl die Ermittlung weiterer Aktionshinweise 402 als auch 
die Ermittlung der restlichen Aktionsparameter 4 04 kann je- 
doch auch auf andere Weise erfolgen. 
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Beispielsweise ist es nicht unbedingt notwendig, fest vorge- 
gebene Ermitt lungs -Prompts Oder Parameter-Prompts den einzel- 
nen Aktionen bzw. Parametern zuzuordnen, wodurch zum einen 
5 zwar die Einfachheit in der Durchfuhrung des Verfahrens und 
in der Anpassung der jeweiligen Anwendung und die Erweiter- 
barkeit der Aktionen und Parameter erheblich vereinfacht 
wird, jedoch immer nur fest vorgegebene Fragen an den Benut- 
zer B gestellt werden. 

10 

Es ist in einer Weiterbildung des Verfahrens und der Dialo- 
gablauf steuerung DA vorgesehen, das Mittel GF zur Generierung 
von Fragen an den Benutzer B zu verwenden. Eine Moglichkeit 
zur Realisierung des Mittels GF ist beispielsweise in dem Do- 
15 kument [3] beschrieben. 

In einer Weiterbildung des Verfahrens ist vorgesehen, zur Er- 
mittlung der Aktion in der Aktionsermittlungseinheit AE fol- 
gende Schritte durchzufuhren . In der Aktionsermittlungsein- 
20 heit AE wird fur jede Aktion der Vergleich der Schltisselbe- 
griff e mit den Aktionshinweisen durchgef uhrt . 

Es wird eine erste Menge von Aktionen ermittelt, bei denen 
alle Aktionshinweise mit mindestens einem Teil der Schlussel- 
25 begriffe ubereinstimmen. Anschaulich beschrieben bedeutet 
diese Vorgehensweise, daft die Schnittmenge aller Aktionen, 
auf die durch die Aktionshinweise hingewiesen wurde, ermit- 
telt wird. Die erste Menge von Aktionen wird beispielsweise 
in dem ersten Aktionsspeicher AS1 gespeichert . 

30 

Ferner wird eine zweite Menge von Aktionen gebildet, bei de- 
nen mindestens ein Teil der Aktionshinweise mit den Schlus- 
selbegriffen iibereinstimmt . Diese Vorgehensweise bedeutet an- 
schaulich eine Bildung der Vereinigungsmenge aller Aktionen, 
35 auf die hingewiesen wurde. Die zweite Menge von Aktionen wird 
beispielsweise in dem zweiten Aktionsspeicher AS 2 gespei- 
chert . 
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Enthalt die erste Menge genau ein Element, so ist die zu er- 
mittelnde Aktion eindeutig identif iziert . Fur diesen Fall ist 
kein weiterer Klarungsdialog notwendig. Enthalt die erste 
Menge jedoch mehr Elemente als die Anzahl von zu ermittelnden 
Aktionen, so ist die Aktion durch die initiale Benut zereinga- 
be nicht genau genug beschrieben. In diesem Fall ist es vor- 
teilhaft, den im vorigen beschriebenen Klarungsdialog durch- 
zuf uhren . 

Ist die erste Menge eine leere Menge, so enthalt die initiale 
Benutzeraulierung Hinweise auf disjunkte Aktionen. In diesem 
Fall wird vorteilhaf t erweise der Klarungsdialog durch die in 
der zweiten Menge enthaltenen Aktionen gesteuert . 

Sind sowohl die erste Menge als auch die zweite Menge leere 
Mengen, so wird beispielsweise ein Klarungsdialog zur Unter- 
scheidung aller in der Anwendung bekannten Aktionen durchge- 
f uhrt . 

Somit dienen die erste Menge und die zweite Menge in dieser 
Weiterbildung als Grundlage fur den Dialog mit dem Benutzer B 
zur Ermittlung der mindestens einen Aktion. 

Die ermittelte Aktion kann in einer Weiterbildung des Verfah- 
rens vorteilhaft zur Steuerung mindestens einer Hintergrund- 
anwendung HA eingesetzt werden. 

Unter der Hintergrundanwendung HA sind unterschiedlichste 
Einsatzmoglichkeiten des Verfahrens und der Dialogablauf - 
steuerung DA zu verstehen, die im weiteren erlautert werden. 

Das Verfahren sowie die Dialogablauf steuerung DA konnen bei- 
spielsweise in folgenden Gebieten vorteilhaft eingesetzt wer- 
den: 

in einem Telef ondienst , 

in einem Telekauf-System und/oder Tele-Banking-System, 
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in einem sog. Voice Mail Handling System, 

zur Steuerung einer beliebigen Maschine, beispielsweise 

einer Werkzeugmaschine oder eines Robot ers, 

- zur Steuerung eines Rechners, 

5 in einem Messaging-System einer Nebenstellenanlage eines 

Telekommunikationssystems . 

Ferner ist es in einer Weiterbildung des Verfahrens vorteil- 
haft, dafi die Auswertung der digit alen Aktionsinf ormation, 
10 die in dem Eingabespeicher ESP gespeichert wird, von dem Pa- 
rameterparsel PP in bezliglich der Eingabe der Aktionsinf orma- 
tion in umgekehrter Reihenfolge ermittelt werden. 

Dies bedeutet, daii die Auswertung der Aktionsinf ormation am 
15 SchluIJ der Aktionsinf ormation begonnen wird und bis zum An- 
fang der Aktionsinf ormation weitergeflihrt wird. Durch diese 
Vorgehensweise wird eine Korrektur der Aktionsinf ormation 
durch den Benutzer B in einem Satz moglich, was im folgenden 
noch detalliert erlautert wird . 

20 

Zum einfacheren Verstandnis der Dialogablauf steuerung DA wird 
im folgenden ein sehr einfaches Beispiel aus der Touristik- 
branche dargestellt. Beispielsweise konnen in diesem Anwen- 
dungsgebiet folgende Aktionen definiert sein: 

25 

- Auskunft liber Bahnverbindungen; 

- Auskunft liber Flugverbindungen; 

- Auskunft liber Schif f sverbindungen; 

- Auskunft liber Hotelzimmer; 
30 - Restaurantinf ormation . 

Die einzelnen Aktionen konnen beispielsweise durch folgende 
Parameter gekennzeichnet sein; 

Bahnauskunf t : <Abf ahrtsort >, <Ankunf t sort >, <Datum>, 
35 <Uhrzeit> 

Flugauskunft : <Abf ahrtsort >, <Ankunf tsort> 7 <Datum>, 
<Uhrzeit> 
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Schif f sauskunft : <Abf ahrtsort>, <Ankunf tsort >, <Datum>, 

<Uhrzeit> 

Hotelauskunft : <0rt>, <Zimmer>, <Art>, <Anzahl der 

Personen> / <Check in Datum>, <Check out 
5 Datum> 

Restaurantinformation: <Ort>, <Stil>, <Kategorie>. 

In Form eines Pseudocodes werden im folgenden die einzelnen 
Aktionen spezif iziert . Hierbei wird jeweils unter dem Punkt 

10 2.1 der Aktion eindeutig eine Nummer zugewiesen, unter dem 

Punkt 2.2 der jeweilige Ermittlungs-Prompt und unter der Num 
mer 2.3 die einzelnen Parameterspezif ikationen, die sich, je 
weils abhangig von der definierten Grammatik in diesem Fall 
fur vorgegebene Parameter-Prompts in einer Weise darstellen, 

15 daft jeweils unter dem Punkt 3.1 und dem Punkt 3.3 die jewei- 
lige Grammatik des jeweiligen Aktionsparameters gegeben ist 
und unter dem Punkt 3.2 der jeweilige Parameter-Prompt darge 
stellt ist. 



20 

aktion ( Bahnauskunf t ) 
{2.1: Nummer = 1 

2.2: Ermitt lungs -prompt = 'Mbchten Sie eine Bahnauskunf t 
einholen? 1 

25 2.3: Parameterspezif ikationen = {parameter 

{3.1: g_abfahrt (X) 

3.2: 'Bitte nennen Sie 

den gewunschten Abf ahrtsort . 1 

3.3: g_ort (X) 

30 } 

parameter 

{3.1: g_ankunft (Y) 
3.2: T Bitte nennen Sie 

den gewunschten Ankunf tsort . ' 
35 3.3: g_ort(Y) 

} 

parameter 
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10 



15 



wollen Sie fahren? 



len Sie fahren? 1 



{3.1: g_datum(Z) 

3.2: 'An welchem Datum 

3.3: g_datum ( Z ) 
} 

parameter 

{3.1: g_uhrzeit (W) 

3.2: 'Um wieviel Uhr wol- 

3.3: g_uhrzeit (W) 
} 



} 



2.4: Aktionshinweise = {von, nach, fahren, Zugauskunft, 
Eisenbahn, Bahnauskunf t } 

2.5: Bestatigungs-piro2npt = 

'Sie erhalten Auskunft uber die Zuge von X 
nach Y am Z um W Uhr. ' 
} 



20 



25 



30 



35 



aktion ( Flugauskunf t ) 
{2.1: Nummer = 2 

2.2: Ermittlungs-prompt = 'Mochten Sie eine Flugauskunf t 
einholen? ' 

2.3: Parameterspezif ikationen = {parameter 

{3.1: g_abfahrt (X) 

3.2: 'Bitte nennen Sie 

den gewunschten Abflugort.' 

3.3: g_ort (X) 
} 

parameter 

{3.1: g_ankunft (Y) 
3.2: 'Bitte nennen Sie 

den gewunschten Ankunf tsort . ' 

3.3: g_ort(Y) 

} 

parameter 
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{3.1 : g_datum(Z) 

3.2: 'An welchem Datum 

wollen Sie fliegen? 1 

3.3: g_datum ( Z ) 

5 } 

parameter 

{3.1: g_uhrzeit (W) 

3.2: 'Urn wieviel Uhr wol- 
len Sie fliegen? 1 
10 3.3: g__uhrzeit (W) 

} 

} 

2.4: Aktionshinweise = {von, nach, fahren, fliegen, 
Flugauskunf t , Flugzeug} 
15 2.5: Bestatigungs-prompt = 

'Sie erhalten Auskunft uber die Fliige von X 
nach Y am Z um W Uhr. ' 
} 

20 

aktion ( Schif f sauskunf t ) 
{2.1: Nummer = 3 

2.2: Ermitt lungs -prompt = 'Mochten Sie eine Schif f saus- 
kunf t einholen? f 
25 2.3: Parameterspezifikationen = {parameter 

{3.1: g_abfahrt (X) 

3.2: T Bitte nennen Sie 

den gewiinschten Abf ahrtsort . ' 

3.3: g_ort (X) 

30 } 

parameter 

{3.1: g_ankunft (Y) 
3.2: 'Bitte nennen Sie 

den gewiinschten Ankunf tsort . ' 
35 3.3: g_ort(Y) 

} 

parameter 
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10 



15 



wollen Sie fahren?' 



len Sie fahren? 



{3.1: g_datum(Z) 

3.2: 'An welchem Datum 

3.3: g__datum ( Z ) 
} 

parameter 
{3.1: g_uhrzeit (W) 
... 3.2: f Um wieviel Uhr wol- 

3.3: g_uhrzeit (W) 
} 



} 



2.4: Aktionshinweise = {von, nach, fahren, Schiffsaus- 
kunft, Schiff } 

2.5: Bestatigungs-pjrompt = 

f Sie erhalten Auskunft iiber die Schiff sverbindungen 
von X nach Y am Z urn W Uhr. ' 
} 



20 



25 



30 



35 



aktion (Hotelauskunf t ) 
{2.1: Nummer = 4 

2.2: Ermittlungs-projnpt = 'Mochten Sie eine Hotelauskunf t 
einholen? ' 

2.3: Parameterspezif ikationen = {parameter 

{3.1: g_ortsangabe (X) 

3.2: 'In welchem Ort su- 

chen Sie ein Hotel?' 

3.3: g_ortsangabe (X) 
} 

parameter 

{3.1: g__zimmerart ( Y) 
3.2: 'Suchen Sie Einzel- 



zimmer oder Doppelzimmer ? ' 



3.3: g zimmerart (Y) 



} 

parameter 
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{3.1: g_anzahl_personen ( Z ) 

3.2: 'Fur wieviele Perso- 

nen suchen Sie Zimmer? 1 

3.3: g_anzahl_personen ( Z ) 

5 } 

parameter 

{3.1: g__von_datum ( W ) 

3.2: 'Wann wollen Sie 

einchecken? 1 

10 3.3: g__datum (W) 

} 

parameter 

{3.1: g_bis_datum(V) 

3.2: 'Warm wollen Sie au- 

15 schecken? 1 

3.3: g_datum(V) 
} 

} 

2.4: Aktionshinweise = {Hotel, Unterkunft, Einzelzimmer , 
20 Doppel zimmer, Zimmer} 

2.5: Best at igungs -prompt « 

'Sie erhalten Auskunft uber Hotels in X, die Y fur Z 
Personen vom W bis zum V frei haben.' 
} 

25 



aktion (Restaurant information) 
{2.1: Nummer = 5 
2.2: Ermittlungs-projnpt = 'Mochten Sie eine Restaurantin- 
30 formation einholen?' 

2.3: Parameterspezif ikationen = {parameter 

{3.1: g_ortsangabe (X) 

3.2: 'In welchem Ort 

mochten Sie essen gehen? 1 
35 3.3: g_ort(X) 

} 

parameter 
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15 



den gewiinschten Stil. 1 



die gewunschte Kategorie, 



{3.1: g_stil(Y) 

3.2: f Bitte nennen Sie 

3.3: g_stil(Y) 

} 

parameter 

{3.1: g_kategorie ( Z ) 

3.2: 'Bitte nennen Sie 

3.3: g_kategorie ( Z ) 

} 



} 



2.4: Aktionshinweise = {Restaurant, essen} 

2.5: Bestatigungs-proinpt = 

'Sie erhalten Auskunft liber Y Restaurants der Z Ka 
tegorie in X. f 
} 



In der folgenden Tabelle sind Schlusselbegrif f e fur die ein- 
20 zelnen Aktionen, die durch die ent sprechende Nummer in den 

geschweiften Klammern eindeutig identif iziert sind, beispiel 
haft auf gefiAhrt . 



von 


{i, 


2, 


3} 


nach 


{i, 


2, 


3} 


f ahren 


{i/ 


2, 


3} 


Zugauskunf t 


{i> 






Eisenbahn 


{i> 






f liegen 


{2} 






Flugauskunf t 


{2} 






Flugzeug 


{2} 






Schif f sauskunf t 


{3} 






Schif f 


{3} 






Hotel 


{4} 






Unterkunf t 


{5} 






Einzelzimmer 


{4> 






Doppe i z iitune r 


{4} 
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Essen 



Restaurant 



{5} 
{5} 



10 



15 



20 



25 



30 



Ein Beispiel fur einen Dialog ctes Benutzers B mit der Dialo- 
gablauf steuerung DA wird im folgenden dargestellt . 

Der Benutzer B auflert seinen Wunsch prazise und vollstandig. 

Der Benutzer B gibt folgende Inf ormationen ein: 

„Ich mochte am 1. Januar 1996 um 5.oo Uhr mit dem Zug von 

Munchen nach Hamburg fahren." 

Der erste Aktionsspeicher AS1 enthalt unter Verwendung der 
oben beschriebenen Schlusselbegrif f e und Grammatiken die er- 
ste Menge von Aktionen {1}. Der zweite Aktionsspeicher AS 2 
enthalt die zweite Menge von Aktionen {1, 2, 3}. 

Da der erste Aktionsspeicher AS1 genau ein Element aufweist, 
wird direkt von der Dialogablauf steuerung DA aus der Informa- 
tionsdatenbank ID die gesuchte Information ermittelt und bei- 
spielsweise dem Benutzer B durch folgende Antwort darge- 
stellt: 

„Sie erhalten Auskunft iiber die Fliige von Munchen nach Ham- 
burg am 1. Januar 199 6 um fiinf Uhr: „1. Flug, 2. Flug, 3. 
Flug usw. . " . 

Bei einem weiteren Beispiel nennt der Benutzer B weder Uhr- 
zeit noch Verkehrsmittel : 

Die Aktionsinf ormation ist beispielsweise folgende: 
„Ich mochte am 1. Januar 1996 von Munchen nach Hamburg." 

Der erste Aktionsspeicher AS1 enthalt in diesem Fall die er- 
ste Menge von Aktionen {1,2,3}. Der zweite Aktionsspeicher 
AS 2 enthalt die zweite Menge von Aktionen {1,2,3}. In der 
Dialogablauf steuerung DA wird ein Klarungsdialog initiiert, 
um zwischen den Aktionen {1,2,3} zu unterscheiden . 
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Hierzu wird beispielsweise der oben beschriebene Ermittlungs- 
Prompt : 

„M6chten Sie eine Bahnauskunf t ?" 
5 dem Benutzer B ausgegeben. 

Der Benutzer B antwortet beispielsweise mit „Nein xx . 

In diesem Fall wird von der Dialogablauf steuerung DA bei- 
10 spielsweise folgender Ermittlungsprompt ausgegeben: 
„M6chten Sie eine Flugauskunf t ? xx 

Beantwortet der Benutzer B diese Frage mit „Ja xx , so wird ein 
weiterer Klarungsdialog zur Ermittlung der restlichen, noeh 
15 fehlenden Aktionsparameter fur die Flugauskunf t durchgef uhrt . 
Hierbei wird beispielsweise zur Ermittlung des Aktionsparame- 
ters Uhrzeit der Parameter-Prompt: 
„Um wieviel Uhr mochten Sie fliegen?" 
dem Benutzer B ausgegeben. 

20 

Der Benutzer B antwortet beispielsweise: 
„Um fiinf Uhr. xx 

Nun hat die Dialogablauf steuerung DA ausreichend Information, 
25 um die gesuchte Aktion zu ermitteln. Das Ergebnis wird dem 
Benutzer B beispielsweise in folgender Weise dargestellt: 
„Sie erhalten Auskunft uber die Fluge von Munchen nach Ham- 
burg am 1. Januar 1996 um fiinf Uhr xx . 

30 Weitere Details liber eine mogliche Ausgestaltung der Dialo- 
gablauf steuerung DA sind in. der Deutschen Patentanmeldung mit 
dem amtlichen Aktenzeichen 19615693.9 beschrieben. 

In Fig. 4 ist in einem Ablauf diagramm das Verfahren in seinen 
35 Verf ahrensschritten dargestellt. Das Eingabesignal ES wird 

analysiert, wobei mit dem Eingabesignal ES beschrieben wird, 
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welche Art von Spracherkennung und/ocier welche Art von 
Sprachausgabe im weiteren Verfahren benotigt wird 4 01, 

Ferner wird abhangig von dem Eingabesignal ES mindestens ein 
5 Spracherkennungsmodul Ei und/oder ein Sprachausgabemodul Aj 
aktiviert 4 02. 

In einem letzten Schritt 403 wird in mindestens einen der 
Spracherkennungsmodule und/oder der Sprachausgabemodule die 
10 jeweilige Spracherkennung bzw. Sprachausgabe durchgef uhrt . 

Ferner ist es in einer Weiterbildung vorgesehen, gemeinsame 
Vorverarbeitungsschritte oder auch gemeinsame Teile von Algo- 
rithmen, die gemeinsam in verschiedenen Verfahren zur Spra- 
15 cherkennung gleichzeitig verwendet werden, in einem separaten 
Vorverarbeitungsmodul W durchzuf uhren . 

In der gemeinsamen Vorverarbeitung z. B. in mindestens einem 
Vorverarbeitungsmodul W konnen beispielsweise eine akusti- 
20 sche Vorverarbeitung oder eine sog. Abstandsberechnung der 
untersuchten Teile des Sprachsignals realisiert werden. 

Ferner ist es in einer Weiterbildung vorteilhaft, Ressourcen 
gemeinsam zu nutzen, beispielsweise in einer Weise, daft ein 

25 Lexikon von mehreren Spracherkennungsmodulen Ei gemeinsam 
verwendet wird. Dies ist beispielsweise moglich, indem ein 
Lexikon zur Erkennung flieftend gesprochener Sprache u. a. die 
Worte "Ja" und "Nein" enthalt, wodurch es moglich ist, daft 
auch ein Schlusselwort-Erkenner (Keyword-Spotter) auf die Be- 

30 griffe "Ja" und "Nein" zur Durchfuhrung der Spracherkennung 
in diesem Fall auf dasselbe Lexikon zugreifen kann. 

Auch eine gemeinsame Nutzung von Ressoucen bei der Nachbear- 
beitung sind sowohl bei dem Verfahren als auch mit einem 
35 Nachbearbeitungsmodul bei dem Sprachverarbeitungssystem als 
eine Ausgestaltung vorgesehen. 
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Sowohl das Sprachverarbeitungssystem als auch das Verfahren 
zur Sprachverarbeitung kann sehr vorteilhaft sowohl in der 
Spracherkennung und in der Sprachausgabe sowie in der Durch- 
fuhrung eines Dialogs mit einem Benutzer B als auch zur Er- 
stellung von Sprachdialogsystemen verwendet werden, da eine 
sehr einfache Zusammenstellung der anwendungsspezif ischen 
Kombinationen von Spracherkennungsmodulen und/oder Sprachaus 
gabemodulen moglich ist . . 
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S. 106 - 171, 1988 

[2] A. Zell, Simulation neuronaler Netze, Edison Wesley, 
1. Auflage, ISBN 3-89319-554-8, S. 137 - 143, 1994 

[3] Caspari, R . , 1993, Bottom Up Generation from Flat 

Semantic Structures, Proc. Deklarative und prozedurale 
Aspekte der Sprachverarbeitung, Deutsche Gesellschaft 
fur Sprachverarbeitung, Sektion Computerlinguist ik, 

4. Fachtagung, S. 1 - 6 

[4] Naumann, Sven und Hagen Langer, 1994: Parsing, 

Stuttgart, Teubner, 1. Auflage, ISBN 3-519-02139-0, 

5. 155 - 166 
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Patentanspriiche 

1 . Sprachverarbeitungssystem, 

- mit mehreren Spracherkennungsmodulen (Ei, i=l..n) und/oder 
5 Sprachausgabemodulen (Aj , j=l..m), die jeweils fur eine vor- 

gebbare Art einer Spracherkennung und/oder einer Sprachausga- 
be vorgesehen sind, und 

- mit „einem_Mi:tt.el (MA) zur Auswahl mindestens eines Spra- 
cherkennungsmoduls (Ei) und/oder Sprachausgabemoduls (Aj ) fiir 

10 eine im weiteren durchzufiihrende Spracherkennung und/oder 

Sprachausgabe, abhangig von einem Eingabesignal (ES), mit dem 
beschrieben wird, welche Art von Spracherkennung und/oder 
Sprachausgabe im weiteren benotigt wird* 

15 2. Sprachverarbeitungssystem nach Anspruch 1, 

bei dem das Mittel (MA) zur Auswahl des Spracherkennungsmo- 
duls (Ei) und/oder des Sprachausgabemoduls (Aj ) derart ausge- 
staltet ist, dafi das Spracherkennungsmodul (Ei) und/oder das 
Sprachausgabemodul (Aj ) von dem Mittel (MA) gesteuert wird. 

20 

3. Sprachverarbeitungssystem nach Anspruch 1 oder 2, 

bei dem Teile von dem Spracherkennungsmodul (Ei) und/oder dem 
Sprachausgabemodul (Aj ) , die gemeinsam verwendet werden, in 
mindestens einem Vorverarbeitungsmodul (W) und/oder in min- 
25 destens einem Nachbearbeitungsmodul realisiert sind. 

4. Sprachverarbeitungssystem nach Anspruch 3, 

bei dem mehrere Spracherkennungsmodule (Ei) und/oder Sprach- 
ausgabemodule (Aj ) gemeinsame Ressourcen verwenden. 

30 

5. Sprachverarbeitungssystem nach einem der Anspruche 1 bis 
4, 

bei dem eine Dialogablauf steuerung (DA) vorgesehen ist, mit 
der ein Dialog des Sprachverarbeitungssystems mit einem Be- 
35 nutzer (B) des Sprachverarbeitungssystems realisiert wird. 



WO 98/10413 



PCT/DE97/01920 



39 

6. Sprachverarbeitungssystem nach einem der Anspriiche 1 bis 
5, 

bei dem das Eingabesignal (ES) von der Dialogablauf steuerung 
(DA) erzeugt wird. 

5 

7. Sprachverarbeitungssystem nach einem der Anspriiche 1 bis 
6, 

— bei dem das Spracherkennungsmodul (Ei) mindestens zur 
Durchfuhrung einer der folgenden Arten der Spracherkennung 

10 ausgebildet ist: 

— Einzelzif f ererkennung, 

— Erkennung von Zif f ernketten, 

— Erkennung von Wortern aus einem begrenzten Vokabular, 

— Erkennung eines Einzelwortes mit einem unbegrenzten Voka- 
15 bular, 

— Erkennung flieiiend gesprochener Sprache mit einem unbe- 
grenzten Vokabular, 

— Erkennung von vorgegebenen Wortkombinationen, 

— Schliisselwort-Erkennung, 
20 — Alphabeterkennung, 

— Lautf olgenerkennung, 

— Sprechererkennung, 
- - DTMF-E r kennung , 
und/oder 

25 - bei dem das Sprachausgabemodul (Aj ) mindestens zur Durch- 
fuhrung einer der folgenden Arten der Sprachausgabe ausgebil- 
det ist : 

— Ausgabe vorgegebener, gespeicherter Sprachkonserven, 

— Ausgabe zusammengesetzter einzelner vorgegebener, gespei- 
30 cherter Sprachkonserven, 

— Ausgabe von aus gespeicherten Phonemen synthetisierten 
Worten, 

— Ausgabe von DTMF-Tonen. 



35 8. Verfahren zur Sprachverarbeitung, 
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- bei dem ein Eingabesignal (ES) analysiert wird (401), mit 
dem beschrieben wird, welche Art von Spracherkennung und/oder 
Sprachausgabe im weiteren benotigt wird, 

- bei dem abhangig von dem Eingabesignal (ES) mindestens ein 
5 Spracherkennungsmodul (Ei) und/oder mindestens ein Sprachaus- 

gabemodul (Aj ) , die jeweils fur eine vorgebbare Art einer 
Spracherkennung und/oder einer Sprachausgabe vorgesehen sind, 
aktiviert wird (402), und 

- bei dem mit dem ausgewahlten Spracherkennungsmodul und/oder 
10 dem Sprachausgabemodul die jeweilige Art der Spracherkennung 

und/oder der Sprachausgabe durchgefiihrt wird (403). 

9. Verfahren nach Anspruch 8, 

bei dem vor der Spracherkennung eine Vorverarbeitung (W) des 
15 zu erkennenden Sprachsignals erfolgt. 

10. Verfahren nach Anspruch 8 oder 9, 

bei dem nach der Spracherkennung eine Nachbearbeitung des er- 
kannten Sprachsignals erfolgt. 
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